[2024年8月21日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Scaling Analytics @ Instagram: The power of deterministic sampling
Meta社のMediumブログにおいて、Instagramのデータ分析や機械学習のモデルトレーニングにはサンプリング(Deterministic Sampling)を用いたデータで行っていることについてまとめた記事が出ていました。
下記はデータ量の観点で記述されていた問題の1つで、毎日数兆件のイベントが発生しているという記載があるので、さすが規模が違うな…と感じました。
Increased Storage Costs: We process trillions of events per day and organic event volume growth is in double digits annually.
Data Extract/Load
Airbyte
Airbyteを用いたコネクタ開発におけるテスト戦略
Airbyte社のブログより、Airbyteを用いたコネクタ開発におけるテスト戦略をまとめた記事が出ていました。
QA checks、Acceptance tests、Validation tests、Regression testsをAirbyteのコネクタではどのように行っているかがまとめられており、AirbyteのCIツールを使うことでこれらのテストをまとめて実行できることについても言及があります。
Data Warehouse/Data Lakehouse
Snowflake
Cortex Analystがパブリックプレビュー
Snowflake内のテーブルデータに対して自然言語で問い合わせを行う仕組みを簡単に構築できる「Cortex Analyst」がパブリックプレビューとなりました。
実際に私も試してみましたが、Semantic Modelの定義をyamlで終えたら、そのファイルをCortex AnalystのAPIを叩く際に渡すだけで使うことができるので、とても楽に使うことが可能です。
Differential Privacy(差分プライバシー)がパブリックプレビュー
Snowflakeの新機能として、Differential Privacy(差分プライバシー)がパブリックプレビューとなりました。2つの機密データから差分を元に特定の個人情報を割り出すことを防ぐといったことが出来る機能となっております。
Snowflakeのパフォーマンスが改善
Snowflakeの公式ブログより、Snowflakeの各処理のパフォーマンスが向上したことをまとめたブログが出ていました。
具体的には、下記のようなパフォーマンス改善が行われているとのことです。
- 自動クラスタリングのコストが平均で10%以上削減
- コアインフラストラクチャを改善し、クエリ効率が最大40%向上
- 検索最適化サービスとマテリアライズドビューのメンテナンスコストが80%削減
Databricks
AI/BI Genieをトレーニングする一連の流れ
Databricksの公式ブログより、DatabricksのAI/BI Genieという自然言語で問い合わせを行うことで該当する集計クエリとデータを回答してくれるサービスをトレーニングする一連の流れをまとめた記事が出ていました。
大まかには以下の流れとなっております。
- Unity Catalogでdescriptionやkeyの情報を定義し、Genieが学習する
- いくつか質問をGenieに投げかけ、回答に誤りがあったらUnity CatalogのDescriptionを修正したり、Genieに直接定義を伝えたりして、より正確な回答を出せるようにしていく
- 実際にエンドユーザーにGenieを公開する。Genieの回答内容に対する高評価・低評価はUI上でまとめて閲覧が可能
Onehouse
Onehouseと連携できる各種クエリエンジンについて、違いをまとめた記事が出ていました。個人的にはStarRocksは初耳でしたね…
Data Transform
dbt
dbt Cloud CLIを介してSQLFluffをGitHub Actionsで実行する例
私のブログで恐縮ですが、dbt Cloud CLIとSQLFluffとGitHub Actionsを用いて、プルリクエスト発行時に自動フォーマッティングすることをブログ化してみました。
このブログでは、2024年7月の新機能としてdbt Cloud CLIでSQLFluffが使えるようになったので、dbt Cloud CLIをGitHub Actionsで実行する方法も書いております。dbt Cloudの処理をGitHub Actionsで行いたい際は、dbt Cloud CLIが使えればdbt-coreのインストールが不要となり、profiles.yml
の作成やDWHの認証情報のGitHubへの登録が不要となるので、より楽になると思います。
Business Intelligence
Looker
Looker 24.14のリリースノートが公開
Lookerの新バージョンである24.14のリリースノートが公開されました。
サンキーチャートやベン図の可視化ができるようになるみたいですね。
Looker上で自然言語で問い合わせてExploreのグラフ描写ができる「Looker Explore Assistant」
Looker上で自然言語で問い合わせてExploreのグラフ描写ができる「Looker Explore Assistant」というOSSが公開されています。
実際に私も試してみたので、こちらも参考になると嬉しいです。
Tableau
Future of Tableau Innovation Preview 2024が開催
Future of Tableau Innovation Preview 2024という、最新のTableauの機能や今後の展望についての紹介があったイベントが8月17日に開催されました。
公式からもTableau EinsteinやEinstein Copilotに関して言及したブログが出ていました。
こちらのイベントの内容を文字起こしして日本語訳された下記のブログも投稿されています。
新機能としては、下記について言及があったようです。私も詳細は理解できていないのですが、Salesforce・Tableau・Slackが生成AIの技術も用いてより密に連携していく機能群であるという印象を受けました。
- Pulse for Salesforce
- Einstein Copilot for Tableau
- Tableau Einstein
- Einstein Semantics
Omni
GUIでの定義をSemantic Layer化でき、スプレッドシートライクなUIも備えたBIツール「Omni」
本まとめブログで取り上げるのは初めてだと思いますが、GUIの操作をSemantic Layer化、スプレッドシートライクなUIを持つ、といういろんなBIのいいところ取りをしたBIツールとして「Omni」という製品があります。
Omniは2022年2月に創業した企業で、Omniを創業したのは、LookerでChief Analytics OfficerをされていたColin氏、LookerでVP ProductをされていたJamie氏、StitchでCTO→買収後のTalendではVP of EngineeringをされていたChristopher氏、という3名となっています。
実際私も試してみましたが、従来のBIツールのようなUIで定義したJOINや新しいフィールドをそのままコード化して他のユーザーと共通利用できるので、とてもよい開発体験を得られました。
またdbtと連携することで、Omniの画面上で選択したフィールドに基づいた集計クエリをdbtのModelとしてPush出来る機能も備わっております。
Data Activation (Reverse ETL)
Hightouch
BigQuery continuous queriesとPub/SubをソースとしたリアルタイムなReverse ETLのサポートを発表
Hightouchが、BigQuery continuous queriesとPub/SubをソースとしたリアルタイムなReverse ETLサポートを発表しました。
Census
Live Sync機能においてBigQuery continuous queriesとPub/SubをソースとしたリアルタイムなReverse ETLのサポートを発表
CensusがリアルタイムなReverse ETLを行なえるLive Syncs機能で、BigQuery continuous queriesとPub/SubをソースとしたリアルタイムなReverse ETLサポートを発表しました。
Data Quality・Data Observability
Observe
Snowflakeに対応したNative Apps「Observe For Snowflake」を発表
Observe社が、SnowflakeのNative Appsとして「Observe For Snowflake」を発表しました。
このアプリでは、SnowflakeのACCOUNTUSAGEのビューやイベントテーブルを参照する、ダッシュボードを提供しています。Snowflakeのログインの統計情報をまとめたダッシュボードも提供されているようです。
Data Orchestration
Dagster
Dagster 1.8のリリース
Dagsterの公式ブログより、最新バージョンである1.8のリリース内容についてまとめた記事が出ていました。
個人的には、DbtProject Integration、SDF Integration、Looker Integration、あたりが気になりました。